花費 26 ms
TPU中的脈動陣列及其實現

深度學習飛速發展過程中,人們發現原有的處理器無法滿足神經網絡這種特定的大量計算,大量的開始針對這一應用進行專用芯片的設計。谷歌的張量處理單元(Tensor Processing Unit,后文簡 ...

Tue Jun 11 17:41:00 CST 2019 6 3315
AI芯片:高性能卷積計算中的數據復用

隨着深度學習的飛速發展,對處理器的性能要求也變得越來越高,隨之涌現出了很多針對神經網絡加速設計的AI芯片。卷積計算是神經網絡中最重要的一類計算,本文分析了高性能卷積計算中的數據復用,這是AI芯片 ...

Wed Aug 28 10:27:00 CST 2019 1 1759
動手寫一個簡單版的谷歌TPU

深度學習飛速發展過程中,人們發現原有的處理器無法滿足神經網絡這種特定的大量計算,大量的開始針對這一應用進行專用芯片的設計。谷歌的張量處理單元(Tensor Processing Unit,后文簡 ...

Tue Jun 11 17:40:00 CST 2019 1 1528
NVDLA中Winograd卷積的設計

在AI芯片:高性能卷積計算中的數據復用曾提到,基於變換域的卷積計算——譬如Winograd卷積——並不能適應算法上對卷積計算多變的需求。但Winograd卷積依舊出現在剛剛公開的ARM Etho ...

Thu Oct 31 05:13:00 CST 2019 0 787
神經網絡加速器應用實例:圖像分類

深度學習飛速發展過程中,人們發現原有的處理器無法滿足神經網絡這種特定的大量計算,大量的開始針對這一應用進行專用芯片的設計。谷歌的張量處理單元(Tensor Processing Unit,后文簡 ...

Sat Jul 27 05:37:00 CST 2019 1 903
TPU中的指令並行和數據並行

深度學習飛速發展過程中,人們發現原有的處理器無法滿足神經網絡這種特定的大量計算,大量的開始針對這一應用進行專用芯片的設計。谷歌的張量處理單元(Tensor Processing Unit,后文簡 ...

Thu Jul 04 05:53:00 CST 2019 0 964
矩陣乘法加速器的設計框架

以往我分析了一些AI加速器的設計,包括TPU,FSD,華為達芬奇等,無一例外都是從已經給出的設計出發,去分析其優缺點和應用范圍。在之前的文章中,關於這些設計是如何完成的,其背后是否有一定設計原則 ...

Tue Mar 10 08:09:00 CST 2020 2 1209
Simple TPU的設計和性能評估

深度學習飛速發展過程中,人們發現原有的處理器無法滿足神經網絡這種特定的大量計算,大量的開始針對這一應用進行專用芯片的設計。谷歌的張量處理單元(Tensor Processing Unit,后文簡 ...

Fri Jul 26 10:45:00 CST 2019 0 615

 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM